AI资讯新闻榜单内容搜索- transform

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: transform

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

既能像 Transformer 一样并行训练，推理时内存需求又不随 token 数线性递增，长上下文又有新思路了？

来自主题: AI技术研报

8035 点击 2024-05-25 18:07

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

近年来，「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用，通过大规模训练得到的视觉基础网络（如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等）已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。

来自主题: AI技术研报

10031 点击 2024-05-22 13:33

DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩

DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩

DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩

基于 Diffusion Transformer（DiT）又迎来一大力作「Flag-DiT」，这次要将图像、视频、音频和 3D「一网打尽」。

来自主题: AI技术研报

8346 点击 2024-05-12 15:29

原作者带队，LSTM真杀回来了！

原作者带队，LSTM真杀回来了！

原作者带队，LSTM真杀回来了！

20 世纪 90 年代，长短时记忆（LSTM）方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来，LSTM 经受住了时间的考验，并为众多深度学习的成功案例做出了贡献。然而，以可并行自注意力为核心 Transformer 横空出世之后，LSTM 自身所存在的局限性使其风光不再。

来自主题: AI资讯

8283 点击 2024-05-10 10:19

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源

近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显著的成功。然而，作为许多下游任务的基础模型，当前的 MLLM 由众所周知的 Transformer 网络构成，这种网络具有较低效的二次计算复杂度。

来自主题: AI技术研报

8273 点击 2024-04-22 17:42

DeepMind升级Transformer，前向通过FLOPs最多可降一半

DeepMind升级Transformer，前向通过FLOPs最多可降一半

DeepMind升级Transformer，前向通过FLOPs最多可降一半

Transformer 的重要性无需多言，目前也有很多研究团队致力于改进这种变革性技术，其中一个重要的改进方向是提升 Transformer 的效率，比如让其具备自适应计算能力，从而可以节省下不必要的计算。

来自主题: AI资讯

4415 点击 2024-04-16 21:18

北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token

北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token

北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token

提出图像生成新范式，从预测下一个token变成预测下一级分辨率，效果超越Sora核心组件Diffusion Transformer（DiT

来自主题: AI技术研报

8405 点击 2024-04-15 18:16

谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说，114倍信息压缩

谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说，114倍信息压缩

谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说，114倍信息压缩

它通过将压缩记忆（compressive memory）整合到线性注意力机制中，用来处理无限长上下文

来自主题: AI资讯

9324 点击 2024-04-13 20:07

直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

谷歌又放大招了，发布下一代 Transformer 模型 Infini-Transformer。

来自主题: AI技术研报

10110 点击 2024-04-13 16:44

华为诺亚频域LLM「帝江」：仅需1/50训练成本，7B模型媲美LLaMA，推理加速5倍

华为诺亚频域LLM「帝江」：仅需1/50训练成本，7B模型媲美LLaMA，推理加速5倍

华为诺亚频域LLM「帝江」：仅需1/50训练成本，7B模型媲美LLaMA，推理加速5倍

基于 Transformer 架构的大语言模型在 NLP 领域取得了令人惊艳的效果，然而，Transformer 中自注意力带来的二次复杂度使得大模型的推理成本和内存占用十分巨大，特别是在长序列的场景中。

来自主题: AI技术研报

6124 点击 2024-04-03 17:29

上一页当前第9页,共12页下一页